基於Sphinx 可快速個人化行動數字語音辨識系統 (Quickly Personalizable Mobile Digit Speech Recognition System Based on Sphinx) [In Chinese]
نویسندگان
چکیده
In this paper, we introduce a system for on-line digit speech recognition services. Besides the speech recognition service in our system, we also provide adaptation function to improve the noise-robustness between different environment. In the case of English digit recognition, our recognition system can achieve over 80% accuracy for a specific speaker by using a few adaptation data. We use Sphinx-4 as a speech recognition kernel in our system. Because Sphinx-4 is a system prepared exclusively for researchers, it is a flexible, modular and pluggable framework. We provide our experiment results on AURORA2, EAT and Android device recording. We use AURORA2 database training models that adapt by EAT and Android device recording. The experimental results show we can get high accuracy after a few adaptation. keywords: mobile, speech recognition, personalizable, adapt, noise-robustness, Sphinx Proceedings of the Twenty-Fifth Conference on Computational Linguistics and Speech Processing (ROCLING 2013)
منابع مشابه
強健性語音辨識中分頻段調變頻譜補償之研究 (A Study of Sub-band Modulation Spectrum Compensation for Robust Speech Recognition) [In Chinese]
雖然語音科技進步迅速,但自動語音辨識仍是一門值得繼續研究開發的課題。因為 目前多數的語音辨識系統應用於不受干擾的安靜環境,雖然能得到相當滿意的辨識效 果,但若將其應用於實際的環境中,語音訊號往往會因為環境雜訊的影響,導致辨識效 能有明顯地衰減,發展多年的強健性技術即是針對此項缺點作改進。 在諸多強健性技術中,有一類方法為對語音特徵作統計上的正規化,傳統上, 這些方法都是對全頻段的語音特徵時間序列做正規化處理,然而,在分析此類方法的效 能上,通常是以其調變頻譜的正規化程度作為效能的依據,因此,如果直接在語音特徵 之調變頻譜上作正規化,應亦可達到不錯的效果。另外,由於不同頻率的調變頻率成 份具有不相等的重要性,但是傳統之特徵時間序列正規化法相對忽略了此性質,基於這 些觀察,在本論文中,我們提出了一系列的分頻段調變頻譜統計正規化法,此類方法可 以分別正規化不同頻段的統計特性,進而提升語音特...
متن کامل線上新聞語音檢索系統 (Online New Retrieval Based on Speech Input) [In Chinese]
陳江村 羅瑞麟 張智星 國立清華大學 資訊工程系 新竹市光復路二段 101 號 E-mail : {jtchen,roro,jang}@wayne.cs.nthu.edu.tw TEL: (03)5715131-3582 摘要: 在此報告中,我們實作了一個結合隱藏式馬可夫模型(Hidden Markov Model, HMM) 為基礎的 HTK(HMM Toolkit)和網頁資料檢索技術的線上新聞語音資料檢索系 統。一般的網頁資料檢索(如 google)須使用者輸入相關文字,才得以文字比對 方式進行檢索。在此我們則嘗試加入語音辨識的技術讓使用者更易進行檢索。本 系統分成新聞前處理及語音查詢兩階段。在辨識內容固定,高準確度的辨識結果 下,本系統特別適用於手機、PDA、嵌入式系統等小型、不易以手操作輸入的裝 置。本系統亦經清大盲友會的盲人朋友試用,反應十分良好。 關鍵詞:語音辨識、資料檢...
متن کامل應用錯誤型態分析於英語發音輔助學習 (English pronunciation assisted learning using error type analysis) [In Chinese]
摘要 語言教學方法主要是由以互動理論 (interactionist theories) 為基礎的溝通式教學法 (communicative language teaching) 所主導。因此,如果要針對學生個別的問題進行糾正,需要甚 多的時間,很難採用雙向互動的教學方法。要解決這樣的問題,電腦輔助語言學習系統 (Computer Assisted Language Learning System, CALL) 是個可行的方案。利用語音辨識 (Automatic Speech Recognition, ASR) 技術的電腦輔助發音訓練系統 (Computer Assisted Pronunciation Training, CAPT) 不但可以提供一個沒有壓力的環境,讓學生反覆的練習,同時也能針對學生個別的發音 問題,提供回饋與糾正的功能。本論文應用語音辨識、錯誤型態分析、及三維唇型...
متن کامل完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]
A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要 傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在 本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以 直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為 輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系 統包含四個子網路,分...
متن کامل基於稀疏表示之語者識別 (Sparse Representation Based Speaker Identification) [In Chinese]
稀疏表示分類器(Sparse Representation Classifier, SRC)是一種基於影像稀疏表示 (Sparse Representation)的機器學習方法。在影像以及人臉辨識上的研究上,稀疏表示分 類器具有非常好的辨識效果以及強健性。有鑑於 SRC 在影像辨識上的高鑑別能力,近 幾年已有許多基於稀疏表示的語者識別(Speaker Identification)方法相繼被提出。本論文 提出一套基於稀疏表示的辨識系統,我們提出以機率型主成份分析 (Probabilistic Principle Component Analysis, PPCA)建構超級向量(Supervector),並加入檢定的方式調整 特徵值選取,使語者高斯混合模型(Gaussian Mixture Model, GMM)中每個高斯的維度可 以針對資料的不同作調整。接著,我們在稀疏字典上加強,透過...
متن کامل